提供者：卢梦依
下载地址：https://catalog.ldc.upenn.edu/LDC2006T13

简介

数据集概述

由Google Inc.提供的Web 1T 5-gram第1版包含英文单词n-gram及其观察到的频率计数。 n-gram的长度范围从unigrams（单个单词）到5-gram。预计该数据对于统计语言建模是有用的，例如用于机器翻译或语音识别以及用于其他用途。n-gram计数来自可公开访问的网页上大约1万亿字的文本标记。可以自动检测到文档的输入编码，并将所有文本转换为UTF8。

文件

大小：约24 GB压缩（gzip）。文本文件标记数量：1,024,908,267,229，句子数量：95,119,665,584，unigrams数量：13,588,391，bigrams数量：314,843,401， trigrams数量：977,069,902，四 fourgrams数量：1,313,818,354， fivegrams数量：1,176,470,663。
类型：数据以类似Penn Treebank华尔街日报部分的标记化的方式进行标记。值得注意的例外包括以下内容：
被连字的词通常是分开的，并且连字符的数字通常构成一个记号。用斜线（例如日期）分隔的数字序列形成一个标记。看起来像网址或电子邮件地址的序列形成一个令牌。

相关论文

1.Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model[C]// INTERSPEECH 2010, Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September. DBLP, 2010:1045-1048.
2.Song F, Croft W B. A general language model for information retrieval[C]// Eighth International Conference on Information and Knowledge Management. ACM, 1999:316-321.
3.Ieee L R B M, Brown P F, Souza P V D, et al. A Tree-Based Statistical Language Model for Natural Language Speech Recognition[J]. Readings in Speech Recognition, 1990, 37(7):507-514.